Una aproximación al uso de word embeddings en una tarea de similitud de textos en español
نویسندگان
چکیده
In this paper we show how a vector representation of words based on word embeddings can help to improve the results in tasks focused on the semantic similarity of texts. Thus we have experimented with two methods that rely on the vector representation of words to calculate the degree of similarity of two texts, one based on the aggregation of vectors and the other one based on the calculation of alignments. The alignment method relies on the similarity of word vectors to determine the semantic link between them. The aggregation method allows us to construct vector representations of the texts from the individual vectors of each word. These representations are compared by means of two classic distance measures: Euclidean distance and cosine similarity. We have evaluated our systems with the corpus based on Wikipedia distributed in the competition of similarity of texts in Spanish of SemEval-2015. Our experiments show that the method based on the alignment of words performs much better, obtaining results that are very close to the best system at SemEval. The method based on vector representations of texts behaves substantially worse. However, this second approach seems to capture aspects of similarity not detected by the first one, as when the outputs of both systems are combined the results of the alignment method are surpassed, even exceeding the results of the best system at SemEval.
منابع مشابه
Utilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras
La desambiguación del significado de las palabras se ha desarrollado como una subárea del Procesamiento del Lenguaje Natural (PLN), donde el objetivo es determinar el sentido correcto de aquellas palabras que tienen más de un significado, no es una tarea final en sí misma, sino una tarea intermedia necesaria en variadas aplicaciones del procesamiento del lenguaje natural. La resolución de la am...
متن کاملDesarrollo de un sistema para medir similitud entre clases
Resumen. El incremento continuo de información en formato digital obliga a contar con nuevos métodos y técnicas para acceder, recopilar y organizar estos volúmenes de información textual. Una de las técnicas más utilizadas para organizar dicha información es la clasificación de documentos. Los sistemas de clasificación automática de textos tienen una baja eficiencia cuando las clases son muy pa...
متن کاملImpacto de la ironía en la minería de opiniones basada en un Léxico Afectivo
En este art́ıculo se describe un método sistemático que identifica la polaridad de textos en Español, aśı como el impacto de la irońıa en la mineŕıa de opiniones. Se propone una aproximación basada en un aprendizaje automático y en la extracción de caracteŕısticas a partir de un Léxico Afectivo en Español. Fue necesaria la creación de un corpus para el entrenamiento y evaluación del método propu...
متن کاملHerramienta de apoyo en la detección de reutilización de código fuente
Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...
متن کاملEstructuración del Conocimiento para la Iterpretación de Textos y su Aplicación al Disseño de Esquemas Conceptuales de Bases de Datos
El desarrollo de sistemas genéricos para tratamiento automático del lenguaje está limitado por la imposibilidad de tener disponible todo el conocimiento requerido para cualquier dominio de aplicación. Por ello, la solución propuesta en este trabajo se basa en el desarrollo de un sistema modular y multiforme que permita la incorporación de los distintos tipos de conocimiento lingüístico y extral...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 57 شماره
صفحات -
تاریخ انتشار 2016